Карань Анна
студентка факультета биоинженерии и бионформатики

Предсказание генов прокариот

Задание 1

В этом задании необходимо сравненить предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды, с моем случае для CP011275.
Даннный инентификатор принадлежит последовательности Planctomyces sp. SH-PL62 plasmid pPL62-2. Длина плазмиды - 86054 bp. На этой плазмиде всего 65 генов, CDS тоже 65, т.е. белок кодирующих генов - 65.

Рис.1. Электронный микрофотографии Planctomycetes

Планктомицеты - тип грамотрицательных бактерий, отличающихся уникальной клеточной структурой, а именно наличием сложной системы замкнутых мембран. В частности, у некоторых представителей нуклеоид находится в ядерном тельце, окружённом двойной мембраной. Некоторые виды осуществляют анаммокс — процесс анаэробного окисления аммиака, в ходе которого образуется элементарный азот.
Уникальной особенностью геномов представителей типа Planctomycetes является отсутствие оперонной структуры генов некоторых важных метаболических путей, что также не характерно для прокариот. Сравнение нуклеотидных последовательностей некоторых генов показывает больший уровень гомологии с таковыми у эукариот.

1. seqret embl:cp011275 cp011275.fasta
2. seqret embl:cp011275 -feature cp011275.gff

С помощью 1-ой команды был получен fasta формат плазмиды из базы данных embl по идентификатору, 2-ой - gff формат, т.е. формат с особенностями, благодаря тегу -feature. Полученные файлы с информацией: cp011275.fasta, cp011275.gff.
Далее из файла cp011275.gff нужно извлечь информацию о координатах кодирующих белки последовательностей (начало, конец, ориентацию)

3) grep CDS cp011275.gff | awk '{print $4 " " $5 " " $7} > final_emb

Для этого была использована 3-я команды. Сначала с помощью grep во всем файле gff ищутся строки содержащие паттерн CDS, результат перенаправляется awk, он считывает по столбцам, в данном случае он выводит 4, 5 и 7 столбцы (где находятся координаты и ориентация в файле gff), которые перенаправляются в итоговый файл.
Полученный файл: final_emb.
Следующий этап работы - предсказание генов с помощью Prodigal. Для этого она была скачана с предлагаемого сайта на компьютер.

prodigal.windows.exe -c -i cp011275.fasta -o prodigal_fin -s prodigal_fin1

Программа Prodigal работает лишь из командной строки. Она была запущена с параметрами написанными выше: -с задает условие отсутствие генов на концах последовательности (если проверить расположение настоящих генов, то так и есть), -i - входной файл, -o - выходной файл, -s - параметр, позволяющий записать все варианты предположения генов со скорами в отдельный файл.
Полученные файлы: prodigal_fin, prodigal_fin1.
Первый файл - это гены с наибольшим score из второго файла, где написаны все варианты.
Файл с координатами и ориентацией предсказанных генов: prod.txt.
Теперь необходимо оценить количественно некоторые показатели (Табл.1.)

Таблица 1. Оценка предсказания Prodigal (сравнение реальных генов, т.е. результатов Emboss с предсказания Prodigal
Число генов с совпадащими координатами Процент верно предсказанных генов Число генов с несовпадающим N-концом Процент таких геновЧисло генов с несовпадающим С-концомПроцент таких геновЧисло генов, ни один конец которых не предсказан Prodigal Процент таких генов
4772,31%1523,08%0034,615%

Рис.2. Диаграмма, наглядно показывающая данные из таблицы 1

Анализ предсказания генов, т.е. получение данных для этой таблицы проводился с помощью скрипта на языке Python.
Скрипт: compar.py.
В скрипте прокомментирован каждый шаг. Здесь я лишь кратко опишу работу программы. Скрипт считывает оба файла (реальные гены и предсказанные) с список. Для подсчета верно предсказанных генов создается список совпадащих элементов. Далее создаются списки N и С концов в зависимости от ориентации генов (если + ориентация, то N-конец - это первая координата, если -, то вторая. Так же для N-конца). Чтобы узнать число генов у которых неверно предсказан только C- или N-конец, сравнивается наличие элементов из списка C- или N-концов генов в списке C- или N-концов предсказанных генов. Оставшиеся гены считаются непредсказанными вообще.
Далее для нескольких конкретных случаев, когда аннотация на одном из концов гена не совпала, нужно попытаться объяснить причину несовпадения. Сначала рассмотрим ген с несовпавшим N-концом, например, ген с координатами - 36494-37861 (+), Prodigal предсказал так - 36458-37861 (+). Это Transposase IS66 family protein. Если посмотреть полный список вариантов предполагаемых генов, то вариант 36494-37861 тоже есть, и есть score не сильно ниже, 228.58 против 231.76 у 36458-37861.

Рис.3. Информация о гене Transposase IS66 family protein

Как видно на Рис.3., этот ген аннотирован в Genbank также на основании предсказания Prodigal 2.6 (я для работы использовала 2.6.3). Т.е. границы данного гена определены скорей всего на основе тех же данных, что есть и у меня.

Рис.4. Все предсказания Prodigal для С-конца 37861 с весами.

На Рис.4. красным выделены предсказания со сравнимо высоким весом и предсказания со стоп-кодоном ATG. Возможно, этот ген аннотирован в Genbank так, потому что это предсказания с почти максимальным весом и с более распросраненным кодонов ATG.
Других предположений у меня нет.
Второй выбранный ген с неверно предсказанным концом - 60232 - 61599 (+), а предсказано было - 60196 - 61599 (+). Это тоже Transposase IS66 family protein, он тоже предсказан Prodogal, как и наверно почти все гены этого организма.

Рис.5. Все предсказания Prodigal для С-конца 61599 с весами.

На Рис.4. красным выделены предсказания со сравнимо высоким весом и предсказания со стоп-кодоном ATG. Возможно, этот ген аннотирован в Genbank так, потому что это предсказания с почти максимальным весом и с более распросраненным кодонов ATG.
Других предположений у меня нет.

Задание 2*

В этом задании необходимо сравнить предсказаний генов в базе данных GenBank и по данным Prodigal для геномной записи, в моем случае - геном Neisseria meningitidis MC58.


©Карань Анна, 2015